1
От подсчетов к контексту: эволюция обработки естественного языка
AI030Lesson 3
00:00

Эволюция обработки естественного языка (NLP) представляет собой фундаментальный переход от рассмотрения языка как дискретных изолированных символов к отображению его в непрерывном многомерном пространстве векторов. Мы перешли от простых представлений на основе признаков к глубоким семантическим картам.

TF-IDF (разреженные)Размерность = размер словаряWord2Vec (распределённые)КорольКоролеваЯблокоРазмерность = скрытые признаки

Сдвиг в представлении

  • Статистическая эра (разреженные): Ранняя обработка естественного языка опиралась на алгоритм TF-IDF. Хотя он эффективен для поиска, он страдает от «проклятья разреженности». В системе TF-IDF векторы слов «Врач» и «Доктор» ортогональны — математически они не связаны между собой.
  • Революция распределённых представлений (ННЛМ и Word2Vec): Модели языковых нейронных сетей ввели плотные векторы. Word2Vec (Skip-gram/CBOW) учится тому, что слова, появляющиеся в схожих контекстах, должны быть соседями в пространстве.
  • Глобальная статистика (GloVe): Глобальные векторы заполняют пробел, анализируя общую совместную встречаемость по всему корпусу, обеспечивая, чтобы расстояние отражало математическую семантическую близость.
Глубокое понимание
Переход от подсчёта вхождений к прогнозированию контекста позволяет моделям улавливать тонкие различия. Такое «распределённое представление» означает, что значение одного слова распределено по сотням измерений вектора, каждое из которых может представлять скрытый семантический признак, такой как пол, королевская власть или медицинский контекст.